La demanda de procesamiento de flujos en tiempo real estÔ aumentando cada vez mÔs. La razón es que a menudo el procesamiento de grandes volúmenes de datos no es suficiente. Los datos tiene que ser procesados rÔpidos para que una empresa pueda reaccionar a las condiciones cambiantes del negocio en tiempo real.
Web logs, RFID, sensor networks, social networks, social data, pĆ”ginas de Internet, Indexado y bĆŗsqueda de pĆ”ginas de internet, detalle de llamadas, datos astronómicos, ciencia, datos genómicos, biogeoquĆmicos, biológicos, vigilancia (cĆ”mas de vĆdeo, por ejemplo), biogeoquĆmicos, biológicos, registros mĆ©dicos, fotografĆas, vĆdeo, transacciones bancarias, son ejemplos de lo que se puede procesar.
El siguiente es un esquema general de las herramientas que podemos utilizar. (Existen nuevas tendencias como Apache Kafka o combinacion de flume y kafka (Flafka) o el ecosistema que se esta formado en torno a spark)
Fuente: http://hortonworks.com/
Pero ¿Qué es Big data?
Es un concepto relativo (como todo aquello que estÔ relacionado con el tamaño) Cuando la información no viene en formatos estructurados Crecimiento acelerado en la adquisición de datos, hardware, alamacenamiento, paralelismo, tiempo de proceso, etc. AnÔlisis de datos de varias fuentes distintas
En el siguiente trabajo utilizamos herramientas para procesamiento de flujo de datos.
GDELT es un proyecto que contiene mÔs de 300 millones de eventos geolocalizados desde 1979 a la fecha. Los datos se basan en informes de noticias de una variedad de fuentes internacionales codificadas usando el sistema de TABARI para registrar los eventos y el uso de software adicional para la ubicación y el tono. Los datos son de libre disposición y actualizadas diariamente.
La base de GDELT nos puede ofrecer registros de eventos de conflictos a lo largo de toda la república mexicana y del mundo. Como por ejemplo podemos distinguir en el siguiente grÔfico las zonas con mayores conflictos registrados.
GDELT
Registro de conflictos en MƩxico
Un uso potencial es utilizar la tecnologĆa desarrollado para eventos de promoción de una marca. Como por ejemplo procesar información de twitter en tiempo real en conciertos para usos mercadológicos.
Otro uso potencial es procesar la percepción ciudadana el dĆa de las elecciones a nivel nacional con base en redes sociales y blogs.